Grok 4は単なるベンチマークの勝者ですか? Xaiのフラッグシップモデルは赤い旗を上げ、よくスコアを付けるために非常に過度に過剰に見えます

Xai’s Grok 4 Topsベンチマークですが、実際のテストでは失敗し、過剰適合、イデオロギー的バイアス、および重要なセキュリティの欠陥の証拠が明らかになります。投稿はGrok 4のベンチマーク勝者です